home *** CD-ROM | disk | FTP | other *** search
/ Ian & Stuart's Australian Mac: Not for Sale / Another.not.for.sale (Australia).iso / hold me in your arms / Media Lab / Project List 9⁄93 < prev    next >
Text File  |  1993-12-15  |  72KB  |  2,195 lines

  1.  
  2. RESEARCH PROJECTS IN THE MEDIA
  3. LABORATORY
  4.  
  5. I. LEARNING & COMMON SENSE        1
  6. 1. Children and Machines          1
  7. 2. Memory-Based Representation    1
  8. 3. Understanding News             1
  9. 4. Iconic Stream-Based Video Logging
  10. 2
  11. 5. Storyteller Systems            2
  12. 6. FRAMER:  Knowledge Description
  13. and Sharing                       2
  14. 7. Graphics by Example            3
  15. 8. Graphics for Software
  16. Visualization                     3
  17. 9. The Berlin Wall of Programming 3
  18. 10. Intelligent Technical
  19. Documentation                     3
  20. 11. Graphical Annotation          3
  21. 12. Instructible Agents           3
  22. 13. Agent-Application Communication
  23. 4
  24. 14. Autonomous Agents             4
  25. 15. Interface Agents              4
  26. 16. Editors, Agents, and Butlers  4
  27. 17. Society of Mind               5
  28. 18. Animal Construction Kits      5
  29. 19. Structure out of Sound        5
  30. 20. Constructionism               6
  31. 21. Robot Design Competitions     6
  32. 22. Project Headlight             6
  33. 23. Learning in Multicultural
  34. Settings                          6
  35. 24. Science and Whole Learning
  36. Teachers' Collaborative           6
  37. 25. Electronic Communication      7
  38. 26. Children as Designers         7
  39. 27. Games                         7
  40. 28. Study of Mathematical Thinking7
  41. 29. Thinking and Learning about
  42. Systems                           7
  43. 30. Ubiquitous Computing for Kids 7
  44. 31. New Visions of Programming in
  45. Education                         8
  46. 32. Learning in Virtual Communities
  47. 8
  48.  
  49. II. PERCEPTUAL COMPUTING          8
  50. 33. Mid-Level Vision              8
  51. 34. X-Y-T Image Analysis          8
  52. 35. Analysis of Egomotion Using Wide
  53. Angle Vision                      8
  54. 36. Modeling and Tracking People  9
  55. 37. Dynamic Scene Annotation      9
  56. 38. Multimodal Natural Dialog     9
  57. 39. Advanced Interactive Mapping
  58. Displays                          9
  59. 40. Information Appliances       10
  60. 41. Structure out of Sound       10
  61. 42. Looking at People            10
  62. 43. Model-Based Image Coding     10
  63. 44. Video Databases:  Indexing by
  64. Content                          10
  65. 45. Image Query by Texture Content11
  66. 46. Nonlinear Space-Time Texture
  67. Models                           11
  68. 47. Semantic Image Modeling      11
  69. 48. Computers and Telephony      11
  70. 49. Desktop Audio                11
  71. 50. Voice Interfaces to Hand-Held
  72. Computers                        12
  73. 51. Voice Hypermedia             12
  74. 52. Telephone-Based Voice Services12
  75. 53. Synthetic Performers         12
  76. 54. Synthetic Listeners          12
  77. 55. Synthetic Spaces             12
  78. 56. Cognitive Audio Processing   13
  79. 57. Structured Audio Transmission13
  80.  
  81. III. INFORMATION & ENTERTAINMENT 13
  82. 58. Salient Stills               13
  83. 59. Color Semantics              13
  84. 60. Knowing the Individual       13
  85. 61. Interactive Computation of
  86. Holographic Images               14
  87. 62. Scaled-Up Holographic Video  14
  88. 63. Holographic Laser Printer    14
  89. 64. Immersive Projected-Image
  90. Holographic Displays             14
  91. 65. Medical Image Holography     14
  92. 66. Edge-Lit Holograms           15
  93. 67. Open Architecture Television 15
  94. 68. Cheops:  Data-Flow Television
  95. Receiver                         15
  96. 69. Motion Modeling for Video Coding
  97. 15
  98. 70. Production, Distribution, and
  99. Viewing of Structured Video
  100. Narratives                       16
  101. 71. Multimedia Testbed           16
  102. 72. Computationally Expressive Tools
  103. 16
  104. 73. Large-Scale, High-Resolution
  105. Display Prototypes               18
  106. 74. Input/Output Considerations  18
  107. 75. Advanced Interactive Mapping
  108. Displays                         18
  109. 76. Experiments in Elastic Media 19
  110. 77. Video Editing:  Computational
  111. Partnerships                     19
  112. 78. Stories with a Sense of
  113. Themselves                       20
  114. 79. Directing Digital Video:  New
  115. Tools                            21
  116. 80. Storyteller Systems          21
  117. 81. Production, Distribution, and
  118. Viewing of Structured Video
  119. Narratives                       21
  120. 82. Real-Time Modeling           21
  121. 83. Interface Sensors and
  122. Transducers                      22
  123. 84. Information, Computation, and
  124. Physics                          22
  125. 85. Incremental Coding           23
  126. 86. Movies via Modems            23
  127. 87. Objective Coding             23
  128. 88. Dimensionalization           23
  129. 89. Casual Collaboration         24
  130. 90. Structure out of Sound       24
  131. 91. Hyperinstruments             24
  132.                                 RESEARCH
  133.  The ongoing research of the Media
  134.  Laboratory extends across a wide realm
  135.  of activities, which may be clustered
  136.  into three broad areas:  LEARNING &
  137.  COMMON SENSE, PERCEPTUAL COMPUTING,
  138.  and INFORMATION & ENTERTAINMENT.
  139.  
  140.  
  141.  
  142.  
  143.  I. LEARNING & COMMON SENSE
  144.  
  145.  1. Children and Machines (Professor
  146.  Edith Ackermann)
  147.  Several projects involve children's
  148.  conceptions of machines. One project
  149.  focuses specifically on how young
  150.  children describe and understand the
  151.  functioning of simple machines.
  152.  Another project focuses on
  153.  descriptions of cybernetic machines
  154.  that interact with their environments.
  155.  A major interest is in how children
  156.  think about such machines, whether
  157.  they see them as "creatures" or as
  158.  "things."
  159.  
  160.  2. Memory-Based Representation
  161.  (Professor Kenneth Haase)
  162.  We are developing an alternative
  163.  account of representation where the
  164.  structure of knowledge and cognition
  165.  emerges from the connection of current
  166.  descriptions to past situations and
  167.  not from some a priori framework into
  168.  which situations and experience are
  169.  translated. Artificial Intelligence
  170.  and Cognitive Science traditionally
  171.  assume that one's representation
  172.  (one's encoding of experience)
  173.  determines the structure of memory; we
  174.  are exploring models of memory where
  175.  this determination goes in both
  176.  directions. Descriptions are stored in
  177.  memory by connecting them with
  178.  descriptions already recorded and
  179.  noting the residual differences
  180.  unexplained by the connections made.
  181.  In this way, what is stored in memory
  182.  has a significant effect on how future
  183.  descriptions are encoded and stored.
  184.  
  185.  3. Understanding News
  186.  (Professor Kenneth Haase)
  187.  We are applying our memory-based
  188.  representation systems to
  189.  comprehending, filtering, and
  190.  summarizing news stories. News stories
  191.  taken from various wire services and
  192.  other sources are run through a simple
  193.  parser which annotates the text with
  194.  phrase boundaries and possible
  195.  relationships between phrases. This
  196.  annotated text is then passed to the
  197.  memory-based representation system and
  198.  "understood" by identification of and
  199.  connection with similar stories
  200.  already in memory; preferences and
  201.  queries are interpreted as partial
  202.  stories which match incoming or
  203.  recorded descriptions. Comparison of
  204.  such understood texts with texts
  205.  previously read by a user allows user-
  206.  specific summarization of new articles
  207.  based on the real differences between
  208.  articles. In addition to filtering
  209.  incoming daily news, these tools
  210.  provide an interface to large text
  211.  databases and other sorts of databases
  212.  (e.g., images and video segments)
  213.  annotated with textual descriptions.
  214.  One strategic advantage of this
  215.  approach is that in the worst case, it
  216.  does as well as keyword matching -
  217.  similar words indicate similar
  218.  articles - yet in the best case it
  219.  does as well as a human editor or
  220.  selector.
  221.  
  222.  4. Iconic Stream-Based Video Logging
  223.  (Professor Kenneth Haase)
  224.  Media Streams is an iconic logging
  225.  system for video content which
  226.  provides the descriptions used by
  227.  storyteller systems, archival
  228.  retrieval programs, content-based
  229.  editors, and other systems which can
  230.  take advantage of knowing the content
  231.  of recorded video. The logger treats
  232.  video as a stream with temporally
  233.  bounded events rather than as a set of
  234.  clips with attached keywords; this
  235.  allows the system to automatically
  236.  "cut" the video to its own purposes.
  237.  Video annotations are represented
  238.  graphically to enhance data
  239.  visualization and to enable logs to be
  240.  shared among human and machine users;
  241.  in addition, palettes of commonly used
  242.  sets of iconic annotations streamline
  243.  the logging of segments similar to
  244.  segments seen before. The indexing of
  245.  both the video itself (whose images
  246.  are stored digitally) and of the icon
  247.  palettes connects to the facilities of
  248.  a memory-based representation in the
  249.  background.
  250.  
  251.  5. Storyteller Systems
  252.  (Professor Kenneth Haase and Professor
  253.  Glorianna Davenport)
  254.  Storyteller systems are sophisticated
  255.  programs with deep and detailed
  256.  knowledge of some particular domain or
  257.  domains and access to "media
  258.  resources" - recorded video, sound,
  259.  and text - regarding the domain. By
  260.  combining these resources with
  261.  synthesized graphical and textual
  262.  representations, a storyteller system
  263.  produces a story customized to what it
  264.  knows -and what it learns - of a
  265.  listener's background, preferences,
  266.  and interests. These stories emerge
  267.  dynamically as the system interacts
  268.  with the user; questions and
  269.  criticisms yield wholly new sequences
  270.  of video, sound, and explanation in
  271.  reply. Such systems transform the
  272.  character of publication:  rather than
  273.  producing epistles, one produces
  274.  emissaries.
  275.  
  276.   '6. FRAMER:  Knowledge Description and
  277.                                 Sharing'
  278.  (Professor Kenneth Haase)
  279.  FRAMER is a portable library for
  280.  knowledge representation and inference
  281.  being used in a variety of projects
  282.  around the Lab. FRAMER provides a
  283.  persistent object-oriented database
  284.  with a simple inheritance mechanism
  285.  and an embedded extension language
  286.  (FRAXL) based on SCHEME. FRAMER data
  287.  structures are easily shared between
  288.  different hardware platforms
  289.  (workstations, Macintoshes, PCs) and
  290.  software platforms (C and LISP).
  291.  Current work on FRAMER includes the
  292.  development of a portable user
  293.  interface API for FRAXL, a networked
  294.  implementation supporting the
  295.  distribution of programs and data, and
  296.  integration ongoing analogical
  297.  representation work with FRAMER.
  298.  FRAMER is currently being used in a
  299.  number of projects throughout the Lab.
  300.  
  301.                   7. Graphics by Example
  302.  (Henry Lieberman)
  303.  Experts in visual domains such as
  304.  graphic design are fluent in the
  305.  generation and critique of visual
  306.  examples. We are combining
  307.  representation and learning techniques
  308.  from artificial intelligence with
  309.  interactive graphical editors to
  310.  create a "programming by example"
  311.  system to assist designers in
  312.  automating graphical procedures.
  313.  
  314.   8. Graphics for Software Visualization
  315.  (Henry Lieberman)
  316.  This project explores how modern
  317.  computer graphic imagery can be used
  318.  as a tool to help programmers
  319.  visualize software. We are
  320.  implementing a range of experimental
  321.  debugging systems that use color,
  322.  animated typography, and three-
  323.  dimensional visual representation of
  324.  programs.
  325.  
  326.        9. The Berlin Wall of Programming
  327.  (Henry Lieberman)
  328.  The increasing demand for graphical
  329.  workstations creates a schism between
  330.  fast languages, such as C, and
  331.  prototyping languages, such as LISP,
  332.  in the UNIX environment. We are
  333.  researching methods of overcoming this
  334.  split in order to integrate AI with
  335.  graphics in real time.
  336.  
  337.                10. Intelligent Technical
  338.                            Documentation
  339.  (Henry Lieberman)
  340.  Technical documentation for hardware
  341.  and software is expensive to produce,
  342.  often inaccurate and inadequate. We
  343.  are exploring a new approach to
  344.  producing technical documentation in
  345.  which an expert interacts with a
  346.  simulation of a device, and the system
  347.  automatically produces both English
  348.  descriptions and visual illustrations.
  349.  
  350.                 11. Graphical Annotation
  351.  (Henry Lieberman)
  352.  People often communicate important
  353.  knowledge by drawing and labeling
  354.  diagrams. Why can't we communicate
  355.  knowledge to a machine by using
  356.  graphical indications of parts and
  357.  structure rather than by textual
  358.  databases or programming languages? We
  359.  are using computer-readable graphical
  360.  annotation of images in a direct-
  361.  manipulation editor to communicate
  362.  relations that tell the system how to
  363.  interpret and generalize user actions.
  364.  We are also exploring voice input so
  365.  that the user can explain actions to
  366.  the machine as they are being
  367.  performed.
  368.  
  369.                  12. Instructible Agents
  370.  (Henry Lieberman)
  371.  Agent software can perform tasks
  372.  automatically on behalf of a user, but
  373.  how does the agent come to learn what
  374.  the user wants? Sometimes the agent
  375.  can learn just by observing user
  376.  behavior, but there may also need to
  377.  be interaction where the user
  378.  instructs the agent more explicitly.
  379.  The instructibility aspect is the
  380.  focus of this project. The user may
  381.  present examples of behavior that the
  382.  agent should follow and give advice to
  383.  the agent as to how the examples
  384.  should be interpreted. The agent must
  385.  give feedback to the user so that the
  386.  user understands what the agent knows
  387.  and is capable of doing. Multimodal
  388.  interaction is important in both the
  389.  instruction and feedback.
  390.  
  391.      13. Agent-Application Communication
  392.  (Henry Lieberman)
  393.  Current experiments in agent software
  394.  rely mostly on domain-specific
  395.  applications that have been programmed
  396.  from scratch or explicitly modified in
  397.  mind. Is it possible to make a toolkit
  398.  or protocol that would allow an agent
  399.  to communicate and control
  400.  applications that have been
  401.  constructed more conventionally? Can
  402.  the agent "take the place" of the user
  403.  in the interface? Can the agent have
  404.  access to the application's data and
  405.  behavior? Will commercial "inter-
  406.  application communication" mechanisms
  407.  suffice? What is the division of labor
  408.  between the agent and the application?
  409.  
  410.                    14. Autonomous Agents
  411.  (Professor Pattie Maes)
  412.  This project applies artificial
  413.  intelligence techniques to the field
  414.  of human-computer interaction. In
  415.  particular, techniques and systems
  416.  developed in the area of autonomous
  417.  agents and the area of commonsense
  418.  representation are combined to
  419.  implement "interface agents":
  420.  interfaces that provide expert
  421.  assistance to a person engaged in the
  422.  use of a particular computer
  423.  application. Interface agents differ
  424.  from current day interfaces in that
  425.  they are more autonomous (performing
  426.  many of the time-consuming, more
  427.  mundane tasks the user normally would
  428.  have to perform), more intelligent
  429.  (learning from the user by observation
  430.  and querying), and more personalized
  431.  (customizing according to the user's
  432.  goals, needs, preferences, habits, and
  433.  history of interaction with the
  434.  system). The project focuses on how
  435.  interface agents can acquire their
  436.  competence using machine-learning
  437.  techniques.
  438.  
  439.                     15. Interface Agents
  440.  (Professor Pattie Maes)
  441.  This project applies artificial
  442.  intelligence techniques to the field
  443.  of human-computer interaction. In
  444.  particular, techniques and systems
  445.  developed in the area of autonomous
  446.  agents and the area of commonsense
  447.  representation are combined to
  448.  implement "interface agents":
  449.  interfaces that provide expert
  450.  assistance to a person engaged in the
  451.  use of a particular computer
  452.  application. Interface agents differ
  453.  from current day interfaces in that
  454.  they are more autonomous (performing
  455.  many of the time-consuming, more
  456.  mundane tasks, the user normally would
  457.  have to perform), more intelligent
  458.  (learning from the user by observation
  459.  and querying) and more personalized
  460.  (customizing according to the user's
  461.  goals, needs, preferences, habits, and
  462.  history of interaction with the
  463.  system).
  464.  
  465.         16. Editors, Agents, and Butlers
  466.  (Professor Pattie Maes)
  467.  This project attempts to deal with the
  468.  problem of news information overload.
  469.  We are building "interface agents" for
  470.  news filtering. These are semi-
  471.  intelligent computer systems that make
  472.  personalized suggestions to a user for
  473.  news items (text, video, audio). The
  474.  user is able to browse through the
  475.  news available (as is the case with
  476.  current interfaces), but some of the
  477.  news items will have been
  478.  "highlighted" while other items might
  479.  have been left out by the agents.
  480.  
  481.  These agents learn news items in which
  482.  the user might be interested in three
  483.  different ways. First, the user is
  484.  able at all times to instruct an agent
  485.  about which news items the user wants
  486.  to receive or not receive. Second, the
  487.  user is given the option of providing
  488.  feedback to the agent about how much
  489.  certain news items are liked or
  490.  disliked. These feedback data are used
  491.  by the agent to discover regularities
  492.  in the user's news interests in terms
  493.  of the content of the article, as well
  494.  as other features such as the author,
  495.  urgency, and news source. Third, these
  496.  feedback data are used to detect
  497.  similarities between different users
  498.  and to discover "clusters" of users
  499.  with similar news interests (on a
  500.  given news topic). Once such clusters
  501.  have been detected, news items that
  502.  one or more users liked are suggested
  503.  by the agent to a user with similar
  504.  interests.
  505.  
  506.                      17. Society of Mind
  507.  (Professor Marvin Minsky)
  508.  Professor Minsky continues to develop
  509.  the theory of human thinking and
  510.  learning called the "Society of Mind."
  511.  This theory explores how phenomena of
  512.  mind emerge from the interaction of
  513.  many disparate agencies, each mindless
  514.  by itself. For example, one aspect of
  515.  the theory explains reasoning by
  516.  analogy on the basis of transforming
  517.  between different kinds of knowledge
  518.  representations. Another aspect is a
  519.  "re-duplication" account of natural
  520.  language, in which grammatical forms
  521.  are seen as emerging directly from
  522.  expressive requirements of
  523.  communication between different
  524.  mechanisms inside the brain, rather
  525.  than from conventions that
  526.  communications between people are
  527.  forced to fit. Professor Minsky has a
  528.  continuing interest in the limits and
  529.  potentials of "connectionist learning
  530.  systems" and their role in distributed
  531.  cognitive accounts like the Society of
  532.  Mind. He is actively considering how
  533.  such systems may be combined and
  534.  interconnected in a way that avoids
  535.  the serious scaling problems of
  536.  unstructured connectionist systems.
  537.  
  538.             18. Animal Construction Kits
  539.  (Professor Marvin Minsky)
  540.  This is a project whose context is the
  541.  simulation of animal behavior, with
  542.  goals of developing computational
  543.  models for ethology, investigating
  544.  situated action approaches to
  545.  artificial intelligence. A related
  546.  goal is the development of
  547.  environments for facilitating such
  548.  projects.
  549.  
  550.               19. Structure out of Sound
  551.  (Professor Marvin Minsky, Andrew
  552.  Lippman, and Michael Hawley)
  553.  In an information-rich environment
  554.  where data, images, and sound are
  555.  readily accessible and digitally
  556.  communicated, the issue of content-
  557.  based search becomes a necessity.
  558.  Structure out of Sound is the first
  559.  attempt at a unified analysis tool for
  560.  speech, music, and sound effects.
  561.  Movies are analyzed into sonic
  562.  primitives that allow one to divide a
  563.  movie into dialogue and action or to
  564.  identify the presence of a single
  565.  actor. The initial work, a doctoral
  566.  thesis, lays out the groundwork for
  567.  later addition of visual browsing and
  568.  correlating elements.
  569.  
  570.                      20. Constructionism
  571.  (Professor Seymour Papert, Professor
  572.  Edith Ackermann, and Professor Mitchel
  573.  Resnick)
  574.  We are developing "constructionism" as
  575.  a theory of learning and education.
  576.  Constructionism is based on two
  577.  different senses of "construction." It
  578.  is grounded in the idea that people
  579.  learn by actively constructing new
  580.  knowledge, not by having information
  581.  "poured" into their heads. Moreover,
  582.  constructionism asserts that people
  583.  learn with particular effectiveness
  584.  when they are engaged in
  585.  "constructing" personally meaningful
  586.  things (such as stories, animations,
  587.  or robots).
  588.  
  589.            21. Robot Design Competitions
  590.  (Professor Seymour Papert and
  591.  Professor Mitchel Resnick)
  592.  We have helped develop an intensive,
  593.  one-month robot design course for MIT
  594.  undergraduates. In the course,
  595.  students design and build robots made
  596.  from electronic and LEGO parts, then
  597.  pit the robots against one another in
  598.  elimination-style competition. The
  599.  Robot Design Competition is a living
  600.  laboratory for the constructionist
  601.  theory of learning, and a vehicle for
  602.  exploring the role of design
  603.  activities in education. In the
  604.  future, we plan to organize similar
  605.  activities for precollege students,
  606.  using our new "Programmable Brick"
  607.  technology.
  608.  
  609.                    22. Project Headlight
  610.  (Professor Seymour Papert)
  611.  Eight years ago, we began a
  612.  partnership with the Hennigan School,
  613.  a multicultural public elementary
  614.  school in Boston. At the school, we
  615.  have helped develop a technology-rich
  616.  environment, with more than 100
  617.  personal computers for 200 students.
  618.  We have worked with teachers and
  619.  students to explore new approaches to
  620.  education and new uses of technology
  621.  in education.
  622.  
  623.   23. Learning in Multicultural Settings
  624.  (Professor Seymour Papert and
  625.  Professor Edith Ackermann)
  626.  For several years, we have focused on
  627.  issues related to gender, race,
  628.  culture, and cognitive styles. One
  629.  setting for this research is Paige
  630.  Academy, a small, independent
  631.  Afrocentric school in the Roxbury
  632.  section of Boston. This setting
  633.  provides an organizationally and
  634.  culturally different context for the
  635.  development of new ideas about
  636.  learning.
  637.  
  638.           24. Science and Whole Learning
  639.                  Teachers' Collaborative
  640.  (Professor Seymour Papert)
  641.  We maintain a working relationship
  642.  with a network of teachers from
  643.  different schools (mostly in the
  644.  Boston area, but also some in other
  645.  parts of the country). Through this
  646.  network, we have collaborated with
  647.  teachers in developing concepts for
  648.  workshops, seminars, and other
  649.  activities to foster their
  650.  professional development.
  651.  
  652.             25. Electronic Communication
  653.  (Professor Seymour Papert and
  654.  Professor Mitchel Resnick)
  655.  We maintain a telecommunications
  656.  network through which collaborating
  657.  teachers and schools can maintain
  658.  contact with the group and with one
  659.  another. Elementary-school students
  660.  also use the network. In one project,
  661.  bilingual students in Boston are
  662.  communicating with students in Costa
  663.  Rica.
  664.  
  665.                26. Children as Designers
  666.  (Professor Seymour Papert and
  667.  Professor Edith Ackermann)
  668.  We are studying how children can
  669.  change from "consumers" into
  670.  "designers" of computer-based
  671.  multimedia productions. In one
  672.  project, elementary-school students
  673.  are designing their own computer games
  674.  - and, in the process, learning about
  675.  programming, mathematics,
  676.  collaboration, and design. The project
  677.  is an extension of earlier research in
  678.  which children designed instructional
  679.  software to help other students learn
  680.  about fractions.
  681.  
  682.                                27. Games
  683.  (Professor Seymour Papert and
  684.  Professor Mitchel Resnick)
  685.  The idea of playful learning is
  686.  pervasive in all of our activities.
  687.  Specific game-oriented research
  688.  include studying children's attachment
  689.  to video games, studying the informal
  690.  learning process through which
  691.  children master new games, and
  692.  studying children as designers and
  693.  implementers of their own games.
  694.  
  695.       28. Study of Mathematical Thinking
  696.  (Professor Seymour Papert)
  697.  The theme of studying mathematical
  698.  thinking pervades many projects. A
  699.  specific project in this category is a
  700.  study of probabilistic thinking in
  701.  children and adults.
  702.  
  703.          29. Thinking and Learning about
  704.                                  Systems
  705.  (Professor Mitchel Resnick)
  706.  We are studying how students think
  707.  about "systems concepts" (such as
  708.  feedback, self-organization, and
  709.  evolution), and how to make these
  710.  ideas more accessible to young
  711.  children. As part of this effort, we
  712.  have developed an extended version of
  713.  Logo with thousands of interacting
  714.  graphic turtles, which students can
  715.  use to explore ideas about self-
  716.  organizing and decentralized systems
  717.  (such as ant colonies and traffic
  718.  jams).
  719.  
  720.        30. Ubiquitous Computing for Kids
  721.  (Professor Mitchel Resnick)
  722.  We are extending the notion of the
  723.  child's construction kit, adding
  724.  computational elements to the bin of
  725.  building parts, so that children can
  726.  embed computational power in the
  727.  machines they build, and spread
  728.  computation throughout their world.
  729.  This idea is part of a more general
  730.  movement toward "ubiquitous computing"
  731.  - the incorporation of computational
  732.  elements into the everyday objects. As
  733.  part of this effort, we are developing
  734.  a "Programmable Brick" - a LEGO brick
  735.  (the size of a deck of cards) with a
  736.  computer inside.
  737.  
  738.        31. New Visions of Programming in
  739.                                Education
  740.  (Professor Mitchel Resnick)
  741.  We are introducing new "programming
  742.  paradigms" into educational computing
  743.  - for example, adding multiprocessing
  744.  capabilities to the Logo programming
  745.  language. These new paradigms not only
  746.  extend the types of projects that
  747.  children can work on (for example,
  748.  making it much easier for children to
  749.  create their own video games), they
  750.  also help children develop new ways of
  751.  thinking about certain mathematical
  752.  and scientific concepts.
  753.  
  754.      32. Learning in Virtual Communities
  755.  (Professor Mitchel Resnick)
  756.  Imagine students from many different
  757.  schools, each connected (via the
  758.  Internet) to the same "virtual world."
  759.  Students can "walk" around the world,
  760.  and meet and talk with other students.
  761.  Perhaps one "room" in the world is
  762.  dedicated to discussions about
  763.  environmental issues. The world is
  764.  also extensible:  students can create
  765.  and program new "objects" and new
  766.  "rooms." We are creating such on-line
  767.  worlds (known generically as "MUDs")
  768.  as a context for students to become
  769.  meaningfully engaged in reading,
  770.  writing, and programming.
  771.  
  772.  
  773.  
  774.  
  775.  II. PERCEPTUAL COMPUTING
  776.  
  777.                     33. Mid-Level Vision
  778.  (Professor Edward Adelson)
  779.  We are developing early and mid-level
  780.  vision mechanisms that emulate the
  781.  processing that occurs in primate
  782.  visual cortex and are designing
  783.  algorithms that apply them with high
  784.  computational efficiency. The
  785.  mechanisms are useful for edge
  786.  detection, texture analysis, motion
  787.  analysis, and image enhancement.
  788.  
  789.                 34. X-Y-T Image Analysis
  790.  (Professor Edward Adelson and
  791.  Professor Aaron Bobick)
  792.  We treat a sequence of images as a
  793.  three-dimensional volume, with the
  794.  dimensions of x, y, and t (time).
  795.  Motion analysis involves orientation-
  796.  selective filtering within this
  797.  volume. We are developing techniques
  798.  for dealing with difficult situations
  799.  such as motion occlusion and motion
  800.  transparency.
  801.  
  802.     35. Analysis of Egomotion Using Wide
  803.                             Angle Vision
  804.  (Professor Aaron Bobick)
  805.  A critical problem in computer vision
  806.  is determining the motion of the
  807.  camera through a scene (egomotion). We
  808.  are developing techniques for using
  809.  stereo, wide-angle imagery data to
  810.  give a better egomotion estimate than
  811.  monocular sequences of images, and in
  812.  a way that is much simpler than
  813.  previous approaches.
  814.  
  815.         36. Modeling and Tracking People
  816.  (Professor Aaron Bobick)
  817.  The ability to track people in
  818.  imagery, and determine their positions
  819.  and pose, is critical for many machine
  820.  interface and telecommunications
  821.  technologies. The goal of this
  822.  research is to use generic models of
  823.  people along with known information
  824.  about the environment to maintain an
  825.  accurate geometric model of the
  826.  people. Doing this requires
  827.  intelligent reasoning about multiple
  828.  views and occlusion.
  829.  
  830.             37. Dynamic Scene Annotation
  831.  (Professor Aaron Bobick)
  832.  In a dynamic scene, what is in the
  833.  image is less important than what is
  834.  happening in the scene. We are
  835.  developing dynamic description
  836.  mechanisms capable of extracting the
  837.  important aspects of the behavior or
  838.  motion present in a scene. Two domains
  839.  we are exploring are charting football
  840.  plays and extracting choreography from
  841.  a ballet sequence.
  842.  
  843.            38. Multimodal Natural Dialog
  844.  (Dr. Richard A. Bolt)
  845.  People in each other's presence
  846.  communicate via speech, gesture, and
  847.  gaze. The aim of this research is to
  848.  make it possible for people to
  849.  communicate with computers in
  850.  essentially the same way. This
  851.  research explores combined speech,
  852.  free-hand manual gesture, and gaze as
  853.  input modes to the computer. One side
  854.  of this effort is adapting
  855.  technologies to capture inputs from
  856.  the user:  a speech recognizer,
  857.  gesture-sensing gloves, and a head-
  858.  mounted eye-tracking system. These
  859.  technologies are off-the-shelf, and as
  860.  more efficient, less obtrusive
  861.  technologies emerge they will be
  862.  assimilated into the work. The other
  863.  side of the effort involves the
  864.  creation and elaboration of the
  865.  software intelligence to interpret
  866.  input from speech, hands, and eyes,
  867.  and to map to an appropriate response
  868.  in graphics and speech or nonspeech
  869.  sound.
  870.  
  871.  The main expected outcome from this
  872.  research is that computer-naive people
  873.  (read:  most of the world) will be
  874.  able to use everyday social and
  875.  linguistic skills to access computers
  876.  and computer-based media.
  877.  
  878.         39. Advanced Interactive Mapping
  879.                                 Displays
  880.  (Dr. Richard A. Bolt, Professor Muriel
  881.  R. Cooper, and Ronald MacNeil)
  882.  This topic represents a three-year
  883.  project involving:
  884.  
  885. *Development of graphically intelligent
  886.  tools and principles to support the
  887.  interactive creation of symbolic
  888.  information landscapes.
  889.  
  890. *Integration of such landscapes with
  891.  pictorially convincing virtual
  892.  environments.
  893.  
  894. *Enabling of multimodal natural
  895.  language communication with the
  896.  virtual environment display and its
  897.  contents via combinations of speech,
  898.  manual gesture, and gaze.
  899.  
  900.  These three streams of investigation
  901.  are to converge in year three of the
  902.  overall project in the context of an
  903.  ultra-high-definition, seamlessly
  904.  tiled wall-sized display (DataWall).
  905.  
  906.               40. Information Appliances
  907.  (Michael Hawley)
  908.  Tools and appliances of all sorts,
  909.  from wristwatches and notebooks to
  910.  concert grand pianos and home
  911.  entertainment systems, are sprouting
  912.  digital components. To interoperate
  913.  harmoniously, and to ease the personal
  914.  interface to a global information
  915.  system, appliances need to communicate
  916.  with each other. This project studies
  917.  the languages and systems required for
  918.  an open and scalable architecture.
  919.  
  920.               41. Structure out of Sound
  921.  (Michael Hawley, Professor Marvin
  922.  Minsky, and Andrew Lippman)
  923.  In an information-rich environment
  924.  where data, images, and sound are
  925.  readily accessible and digitally
  926.  communicated, the issue of content-
  927.  based search becomes a necessity.
  928.  Structure out of Sound is the first
  929.  attempt at a unified analysis tool for
  930.  speech, music, and sound effects.
  931.  Movies are analyzed into sonic
  932.  primitives that allow one to divide a
  933.  movie into dialogue and action or to
  934.  identify the presence of a single
  935.  actor. The initial work, a doctoral
  936.  thesis, lays out the groundwork for
  937.  later addition of visual browsing and
  938.  correlating elements.
  939.  
  940.                    42. Looking at People
  941.  (Professor Alex Pentland)
  942.  This large, multiyear research project
  943.  called "Looking at People" is composed
  944.  of several different subprojects
  945.  including real-time tracking people's
  946.  body positions as they point and move
  947.  about in the work environment, gesture
  948.  and expression recognition, and
  949.  continued development of our real-time
  950.  face recognition system. Currently
  951.  there are two "test bed" applications
  952.  of this technology:  a real-time
  953.  virtual reality system called ALIVE
  954.  (with Professor Pattie Maes) and a
  955.  "smart" teleconferencing system.
  956.  
  957.             43. Model-Based Image Coding
  958.  (Professor Alex Pentland)
  959.  This research project is developing
  960.  generic, physically based models that
  961.  allow ultra-low bandwidth image
  962.  compression. Using such models we can
  963.  concisely describe an object's
  964.  appearance, and predict how its
  965.  appearance will change as the object
  966.  and camera move. Using these
  967.  techniques we have been able to
  968.  achieve high-quality still-image
  969.  compression with 50:1 to 100:1
  970.  compression ratios, and high-quality
  971.  video compression at only 8
  972.  kilobits/second.
  973.  
  974.       '44. Video Databases:  Indexing by
  975.                                 Content'
  976.  (Professor Alex Pentland)
  977.  One of the most significant problems
  978.  with multimedia technology is that you
  979.  can't find what you want. This is
  980.  because, unlike text-only systems, you
  981.  can't ask a computer about the
  982.  contents of images or video. For
  983.  instance, you can't ask the computer
  984.  to "find another video clip like this
  985.  one, but shot from another angle," or
  986.  "find a video clip of me on the
  987.  beach." We are working to solve these
  988.  problems by making computers able to
  989.  "see" the contents of images and
  990.  video.
  991.  
  992.       45. Image Query by Texture Content
  993.  (Professor Rosalind W. Picard)
  994.  People can quickly scan a lot of
  995.  pictures and identify a particular
  996.  pattern in a still image or video
  997.  sequence. Machines currently cannot.
  998.  We are studying how humans recognize
  999.  visual patterns, and we are building
  1000.  computer models to mimic this
  1001.  behavior. Particular attention is
  1002.  given to how humans classify patterns
  1003.  and interpret directionality,
  1004.  contrast, periodicity, randomness,
  1005.  translation, rotation, perspective,
  1006.  and scale.
  1007.  
  1008.         46. Nonlinear Space-Time Texture
  1009.                                   Models
  1010.  (Professor Rosalind W. Picard)
  1011.  A bicyclist's pedaling may be
  1012.  identified as a periodic texture in
  1013.  time. Ravaging flames or turbulent
  1014.  water can each be thought of as a
  1015.  stochastic texture in space and time.
  1016.  We are developing nonlinear models for
  1017.  spatio-temporal patterns that don't
  1018.  adhere to the "rigid body, affine
  1019.  motion" assumption. Models currently
  1020.  under exploration include physical
  1021.  models of turbulence and biologically
  1022.  motivated reaction-diffusion systems.
  1023.  We have also been developing general
  1024.  methods for nonlinear optimization;
  1025.  these have many applications such as
  1026.  recognition of nonlinear patterns.
  1027.  
  1028.              47. Semantic Image Modeling
  1029.  (Professor Rosalind W. Picard)
  1030.  If I state "Atlanta is in Cincinnati"
  1031.  today, it is unlikely you will think I
  1032.  am coherent. If, however, we are
  1033.  talking baseball, then the sentence is
  1034.  very clear. The context makes the
  1035.  interpretation not only easier, but
  1036.  possible. Similarly, with pictures, if
  1037.  you see blue at the top then it's
  1038.  probably sky. The goal of this work is
  1039.  to begin setting up two-way
  1040.  interaction between available
  1041.  contextual information and the models
  1042.  used to represent visual information.
  1043.  The ultimate goal is the one Shannon
  1044.  missed - putting semantic meaning into
  1045.  "information" theory.
  1046.  
  1047.              48. Computers and Telephony
  1048.  (Christopher M. Schmandt)
  1049.  Computer workstations can provide a
  1050.  much needed user interface to advanced
  1051.  telephony functions, provided a path
  1052.  exists between the workstation and
  1053.  switch. Controlling call set-up from a
  1054.  user's workstation allows a greater
  1055.  degree of personalization and dynamic
  1056.  call handling, both for outgoing and
  1057.  incoming calls. This project is being
  1058.  implemented in the ISDN environment of
  1059.  MIT's campus telephone network, using
  1060.  Phoneserver, a computer network
  1061.  interface to Basic Rate ISDN
  1062.  switching.
  1063.  
  1064.                        49. Desktop Audio
  1065.  (Christopher M. Schmandt)
  1066.  This project explores software
  1067.  architectures and user interfaces to
  1068.  voice as a computer data type as well
  1069.  as a command channel. Its goal is to
  1070.  make speech ubiquitous to a range of
  1071.  applications, for instance, editing a
  1072.  telephone message to include
  1073.  annotation of a text document. Related
  1074.  issues include object-oriented
  1075.  manipulation of multiple media
  1076.  "selection" (or "clipboard") data
  1077.  between processes.
  1078.  
  1079.        50. Voice Interfaces to Hand-Held
  1080.                                Computers
  1081.  (Christopher M. Schmandt)
  1082.  This project is using a mock-up to
  1083.  explore user interfaces and
  1084.  applications of voice in a hand-held
  1085.  computer. The target is a machine, the
  1086.  size of a microcassette recorder,
  1087.  which is simply a mobile extension of
  1088.  a more powerful desktop computer.
  1089.  Applications include note-taking,
  1090.  outlining, and a memory assistant.
  1091.  
  1092.                     51. Voice Hypermedia
  1093.  (Christopher M. Schmandt)
  1094.  The project takes the traditional
  1095.  "hypertext" approach to a voice-only
  1096.  environment. Text is replace by
  1097.  recorded voice segments, and the user
  1098.  interface consists of a speech
  1099.  recognizer and speech synthesizer. A
  1100.  related issue is automatic
  1101.  segmentation of recorded speech
  1102.  segments into semantically meaningful
  1103.  chunks.
  1104.  
  1105.       52. Telephone-Based Voice Services
  1106.  (Christopher M. Schmandt)
  1107.  This project explores the utility of
  1108.  voice in a range of applications
  1109.  offering services to users of the
  1110.  telephone network. Topics being
  1111.  examined include voice mail, speech
  1112.  synthesis of electronic mail, access
  1113.  to calendars and rolodexes, and speech-
  1114.  based user interface to call
  1115.  processing features such as variable
  1116.  call forwarding. Visual (on the
  1117.  workstation) and speech (over the
  1118.  telephone) based applications offer
  1119.  differing views of the same underlying
  1120.  databases in an office environment.
  1121.  
  1122.                 53. Synthetic Performers
  1123.  (Professor Barry Vercoe)
  1124.  We have shown that computers can
  1125.  exhibit real-time musical behavior
  1126.  similar to that of skilled human
  1127.  performers. Our live violinist
  1128.  accompanied by a computer-driven piano
  1129.  has been widely viewed on public TV.
  1130.  This research continues to explore the
  1131.  music-cognitive issues that arise when
  1132.  a computer is put in the position of
  1133.  real-time, highly sensitive human
  1134.  interaction.
  1135.  
  1136.                  54. Synthetic Listeners
  1137.  (Professor Barry Vercoe)
  1138.  This project is researching audio
  1139.  signal separation, with a focus on
  1140.  polyphonic pitch detection. We want to
  1141.  understand how humans do multisource
  1142.  audio separation with ease (the
  1143.  "cocktail party conversation" trick),
  1144.  and why machines cannot. We are
  1145.  developing a representation of sound
  1146.  using recent concepts of human
  1147.  auditory encoding, so that machines
  1148.  might perceive complex audio signals
  1149.  the way humans do.
  1150.  
  1151.                     55. Synthetic Spaces
  1152.  (Professor Barry Vercoe)
  1153.  Research is being conducted on
  1154.  electronic enhancement of a room's
  1155.  natural ambience via an active
  1156.  boundary system of microphones and
  1157.  speakers. The technique utilizes a new
  1158.  class of flat reverberators running on
  1159.  a high-speed digital audio processor.
  1160.  Our goal is to separate acoustics from
  1161.  architecture within rooms and public
  1162.  spaces.
  1163.  
  1164.           56. Cognitive Audio Processing
  1165.  (Professor Barry Vercoe)
  1166.  This project is investigating how
  1167.  humans perceive and quantify music and
  1168.  audio information in cultural
  1169.  contexts. This involves computer-
  1170.  assisted understanding of source
  1171.  identification, voice intonation,
  1172.  rhythmic and tonal structure, and
  1173.  emotional content, within both Western
  1174.  and non-Western traditions.
  1175.  
  1176.        57. Structured Audio Transmission
  1177.  (Professor Barry Vercoe)
  1178.  We are researching the flexible
  1179.  encoding of speech, music, and
  1180.  ambience (partially rendered),
  1181.  suitable for rate-varying packet
  1182.  transmission over a multiplexed
  1183.  audio/video channel. We are also
  1184.  studying receiver decoding, channel
  1185.  assignment and rendering, according to
  1186.  the level of local resources, which
  1187.  are also self-calibrating and
  1188.  adaptive.
  1189.  
  1190.  
  1191.  
  1192.  
  1193.  III. INFORMATION & ENTERTAINMENT
  1194.  
  1195.                       58. Salient Stills
  1196.  (Walter Bender)
  1197.  A Salient Still is a 1500-line, print-
  1198.  quality photograph created from a
  1199.  video sequence. It can carry both the
  1200.  context and the detailed content of
  1201.  the sequence. The data representation
  1202.  consists of video pans, tilts, and
  1203.  zooms warped into a continuous
  1204.  space/time volume. A high-resolution,
  1205.  panoramic still image is extracted
  1206.  from this representation. This still
  1207.  image has both the wide field of view
  1208.  captured by the short focal-length
  1209.  frames and the detail captured by the
  1210.  long focal-length frames.
  1211.  
  1212.                      59. Color Semantics
  1213.  (Walter Bender)
  1214.  We are exploring the role of color
  1215.  alignment in the preservation of the
  1216.  experience of color. Central to this
  1217.  investigation is the formulation of
  1218.  color alignment and its measurement.
  1219.  Objective quantification of color
  1220.  relatedness is desirable, since it
  1221.  allows precise specification of color
  1222.  in relations to its surrounding visual
  1223.  context and state of visual
  1224.  adaptation. A secondary theme of this
  1225.  research is the role color alignment
  1226.  plays in the generation of expressive
  1227.  energy in color combinations.
  1228.  Expressive load of color combinations
  1229.  can be predicted, based on selection
  1230.  of color alignments. We are applying
  1231.  this work to the measure of degree-of-
  1232.  alignment between window and
  1233.  background in a workstation. This work
  1234.  will provide guidelines for effective
  1235.  selection of window, font, and
  1236.  background colors for any given
  1237.  application.
  1238.  
  1239.               60. Knowing the Individual
  1240.  (Walter Bender)
  1241.  Just as a display should "know" the
  1242.  data, it should also be cognizant of
  1243.  the user. The more the system knows
  1244.  about the user, the better able it
  1245.  will be to make sense of the
  1246.  ambiguities and inconsistencies
  1247.  inherent in human communication. Our
  1248.  work in user modeling involves the
  1249.  full exploitation of the user's
  1250.  computational environment, so that
  1251.  information normally provided by the
  1252.  computer (e.g., idle time, schedule
  1253.  information, electronic mail
  1254.  subscriptions) and other, more
  1255.  esoteric information (e.g., physical
  1256.  location tracking systems, eye-
  1257.  tracking systems, speech manipulation,
  1258.  electronic newspapers, model-building
  1259.  cameras) can be integrated to
  1260.  construct dynamic, individual user
  1261.  models that both change over time as
  1262.  users change and as the system learns
  1263.  more about users.
  1264.  
  1265.           61. Interactive Computation of
  1266.                       Holographic Images
  1267.  (Professor Stephen A. Benton)
  1268.  The display of holographic 3-D images
  1269.  requires many megabytes of data to be
  1270.  recomputed every time the image is
  1271.  changed. These calculations simulate
  1272.  the propagation and interference of
  1273.  light beams, but numerical shortcuts
  1274.  and other new techniques have reduced
  1275.  the computation times by more than
  1276.  twenty times to well under one second,
  1277.  allowing truly interactive
  1278.  manipulation and exploration of
  1279.  complex 3-D image data.
  1280.  
  1281.          62. Scaled-Up Holographic Video
  1282.  (Professor Stephen A. Benton)
  1283.  The world's first electronic
  1284.  holographic video display has
  1285.  established the principles of
  1286.  information reduction and image
  1287.  scanning, but scaling up to practical
  1288.  display sizes has posed significant
  1289.  electronic and electro-optical
  1290.  challenges. The parallelization of the
  1291.  computation, storage, and display has
  1292.  been shown feasible for 3" x 5"
  1293.  images, laying the groundwork for
  1294.  further scale-ups of image size.
  1295.  
  1296.            63. Holographic Laser Printer
  1297.  (Professor Stephen A. Benton and
  1298.  Michael A. Klug)
  1299.  Full-color, wide-angle, and large-size
  1300.  computer-generated hard-copy holograms
  1301.  still take considerable time to
  1302.  create. A "holographic laser printer"
  1303.  allows simpler hard-copy holograms to
  1304.  be generated in minutes instead of
  1305.  hours, automatically and without wet
  1306.  processing. Research topics include
  1307.  recording materials and processing,
  1308.  optical design, image processing and
  1309.  LCD display, and optical techniques
  1310.  for image noise reduction.
  1311.  
  1312.            64. Immersive Projected-Image
  1313.                     Holographic Displays
  1314.  (Professor Stephen A. Benton)
  1315.  The creation of meter-sized
  1316.  holographic 3-D images can be achieved
  1317.  with large-area holograms, or via the
  1318.  projection of images from smaller
  1319.  holograms into wraparound optical
  1320.  systems. Here we explore the
  1321.  distortions and properties of deeply
  1322.  concave mirrors used as projection
  1323.  elements.
  1324.  
  1325.             65. Medical Image Holography
  1326.  (Professor Stephen A. Benton)
  1327.  MRI and CAT-scan cameras gather three-
  1328.  dimensional data, but holography
  1329.  offers the only way of examining those
  1330.  images in fully three-dimensional
  1331.  form. This project explores new image-
  1332.  processing, editing, and rendering
  1333.  tools that are needed to make these
  1334.  complex 3-D images quickly and
  1335.  accurately interpretable by
  1336.  physicians.
  1337.  
  1338.                   66. Edge-Lit Holograms
  1339.  (Professor Stephen A. Benton)
  1340.  Conventional holograms require
  1341.  illuminators to be mounted on walls or
  1342.  ceilings near the hologram; edge-lit
  1343.  holograms are a new type of white-
  1344.  light hologram that allow the light
  1345.  source to be included within the mount
  1346.  itself, assuring a compact and
  1347.  carefully aligned illumination. This
  1348.  project explores the fundamental
  1349.  diffraction and imaging properties of
  1350.  these holograms with a view toward
  1351.  making their images deeper, brighter,
  1352.  and clearer.
  1353.  
  1354.         67. Open Architecture Television
  1355.  (Professor V. Michael Bove)
  1356.  Open Architecture Television explores
  1357.  the encoding of digital video in such
  1358.  a way that the parameters of
  1359.  production (resolution, frame rate)
  1360.  may be decoupled from those of the
  1361.  display, supporting a broad variety of
  1362.  production and display systems and
  1363.  permitting easy international
  1364.  interchange as well as interworking
  1365.  between television and computer
  1366.  equipment. We have successfully
  1367.  demonstrated this idea using
  1368.  spatiotemporal subband coding, and
  1369.  also have developed frame-rate
  1370.  decoupling methods appropriate for
  1371.  motion-compensated coders such as
  1372.  MPEG.
  1373.  
  1374.       '68. Cheops:  Data-Flow Television
  1375.                                Receiver'
  1376.  (Professor V. Michael Bove)
  1377.  The Cheops Imaging System is a
  1378.  compact, modular platform for
  1379.  acquisition, real-time processing, and
  1380.  display of digital video sequences and
  1381.  model-based representations of moving
  1382.  scenes. It is intended as both a
  1383.  laboratory tool and a prototype
  1384.  hardware and software architecture for
  1385.  future programmable video decoders.
  1386.  Rather than using a large number of
  1387.  general-purpose processors and
  1388.  dividing up image processing tasks
  1389.  spatially, Cheops abstracts out a set
  1390.  of basic, computationally intensive
  1391.  stream operations that may be
  1392.  performed in parallel and embodies
  1393.  them in specialized hardware. Eight
  1394.  systems have been built and are in use
  1395.  at the Media Lab and at various
  1396.  sponsor sites.
  1397.  
  1398.     69. Motion Modeling for Video Coding
  1399.  (Professor V. Michael Bove)
  1400.  Most digital video-coding methods use
  1401.  a very simple approximation to scene
  1402.  motion that breaks up images into
  1403.  arrays of square tiles and assigns a
  1404.  two-dimensional motion vector to each.
  1405.  We are developing video-coding methods
  1406.  that segment scenes into coherently
  1407.  moving regions and compute more
  1408.  accurate motions for the regions. The
  1409.  result should be a more compact
  1410.  representation, better scene
  1411.  understanding, and the ability to
  1412.  compute images for arbitrary instants
  1413.  in time (in connection with Open
  1414.  Architecture Television research).
  1415.  
  1416.        70. Production, Distribution, and
  1417.   Viewing of Structured Video Narratives
  1418.  (Professor V. Michael Bove and
  1419.  Professor Glorianna Davenport)
  1420.  Research in video coding at the Media
  1421.  Lab increasingly emphasizes structure
  1422.  as a means of leveraging both
  1423.  compression and story. Image
  1424.  understanding, machine vision, and a
  1425.  priori knowledge are used to produce
  1426.  video representations in terms of
  1427.  component parts (actors, backgrounds,
  1428.  moving objects) and to produce content
  1429.  annotations for story construction.
  1430.  This form of coding has implications
  1431.  for production, postproduction,
  1432.  distribution, and viewing. The goal of
  1433.  this project is to script, produce,
  1434.  and work with a story represented as a
  1435.  structured video database in order to
  1436.  examine diverse issues including
  1437.  script annotation and storyboarding,
  1438.  camera design, production techniques,
  1439.  data formatting, and viewing
  1440.  paradigms.
  1441.  
  1442.                   71. Multimedia Testbed
  1443.  (Professor Muriel R. Cooper, Ronald
  1444.  MacNeil, and David Small)
  1445.  The Meta-Media project integrates a
  1446.  rich set of graphic tools and editors
  1447.  with searching, browsing, linking,
  1448.  scripting, and visualization
  1449.  capabilities to allow research into
  1450.  the new design issues emerging from
  1451.  real-time, multilayered information in
  1452.  an electronic communication
  1453.  environment. The planning of
  1454.  structured and unstructured
  1455.  informational multimedia pathways
  1456.  presents graphical design complexity
  1457.  and challenge for both the designer
  1458.  and the user of multimedia
  1459.  information. Traditional media
  1460.  designers from the print, audiovisual,
  1461.  and animation worlds provide important
  1462.  insights into guiding viewers'
  1463.  perceptual responses to information.
  1464.  
  1465.  Work that bridges the gap between the
  1466.  hands-on world of designers and the
  1467.  more abstract symbolic world of
  1468.  programming explores spatial,
  1469.  temporal, and relational rules and
  1470.  methods which rank information for the
  1471.  viewer, influence emotional responses,
  1472.  and often embody hidden aesthetics.
  1473.  Automatic layout and design
  1474.  intelligence will be required to
  1475.  filter data for users in every field.
  1476.  Work is done in a sophisticated
  1477.  hardware and software environment
  1478.  which includes our own window manager.
  1479.  
  1480.     72. Computationally Expressive Tools
  1481.  (Professor Muriel R. Cooper, Ronald
  1482.  MacNeil, and David Small)
  1483.  We are developing a repertoire of
  1484.  graphics that will allow computational
  1485.  assistance in the expression of
  1486.  dynamic and interactive design. In an
  1487.  electronic information environment we
  1488.  need new graphical principles, tools,
  1489.  and editors which are suitable to the
  1490.  integrated, interactive, dynamic, and
  1491.  intelligent formation and presentation
  1492.  of information. This graphical set
  1493.  must be integrated with real-time
  1494.  design-assistance systems in order to
  1495.  cope with the magnitude of visual
  1496.  complexity resulting from multiple
  1497.  streams and forms of data that deluge
  1498.  the user.
  1499.  
  1500. *Computational Graphics:  Animation is
  1501.  currently produced either by labor
  1502.  intensive cel animation, based on
  1503.  expressive individual creativity, or
  1504.  by traditional computer graphics
  1505.  animation based on modeling of
  1506.  physical behavior. While work in the
  1507.  direction of coupling knowledge-based
  1508.  animation is very young, we are
  1509.  exploring ways of modeling and
  1510.  animating data information as a set of
  1511.  interactive tools - data as graphics/
  1512.  behavior of information.
  1513.  
  1514. *Data-Driven Graphics:  Data
  1515.  visualization is the symbolic
  1516.  counterpart of scientific
  1517.  visualization in which we will build
  1518.  transpositional models that will allow
  1519.  various forms of on-the-fly
  1520.  abstractions from real-time data
  1521.  domains such as maps, weather, and
  1522.  actuarial information.
  1523.  
  1524. *Behavioral Graphics:  Information that
  1525.  responds dynamically and interactively
  1526.  to change based on physical models
  1527.  drawn from work in scientific
  1528.  visualization holds great promise. Our
  1529.  work in responsive substrata that
  1530.  allow the user to model paper fibers,
  1531.  pigment, diffusion, and gravity will
  1532.  be extended into informational models
  1533.  that, for example, would graphically
  1534.  indicate age or accuracy of data.
  1535.  Further modeling of mark-making tools
  1536.  and force feedback is planned.
  1537.  
  1538. *Animation:  A cel-based animation
  1539.  system with many unique capabilities
  1540.  is the foundation for further
  1541.  animation research. The integration of
  1542.  hand-drawn animation with 3-D modeling
  1543.  continues to be a research subject.
  1544.  Work in moving back and forth from 2-D
  1545.  to 3-D continues, as do investigations
  1546.  into simple forms of automation.
  1547.  
  1548. *Sound-Graphics:  This project explores
  1549.  some of the unique and overlapping
  1550.  characteristics of image and sound. In
  1551.  Tone of Voice Typography, the color,
  1552.  size, translucency, style, and even
  1553.  meaning of a word may be driven by the
  1554.  pitch of a sound over time. Recent
  1555.  work includes sound at the interface,
  1556.  sound/graphic objects, spatial sound,
  1557.  and compositional and analytical tools
  1558.  
  1559. *Adaptive Typography and Graphics:  This
  1560.  project is developing ways of filtering
  1561.  typography and graphics on the fly for
  1562.  greater legibility and maintaining the
  1563.  perception of consistent color in an
  1564.  unpredictable, changing environment.
  1565.  These principles are being incorporated
  1566.  with dynamics and intelligence, and
  1567.  extended to include more complex
  1568.  graphics.
  1569.  
  1570. *Topographical Typography:  The goal of
  1571.  this project is to develop dynamic
  1572.  maps, typography, and graphics which
  1573.  have knowledge of each other, and to
  1574.  develop intelligent tools that allow
  1575.  the effective design of graphical
  1576.  behavior in relation to real-time
  1577.  dynamic data.
  1578.  
  1579. *Visual Complexity and Selective
  1580.  Filtering:  Using gaussian filters and
  1581.  pyramid coding, translucency, blur,
  1582.  and multiple layers of landsat and
  1583.  weather data, we are able to
  1584.  selectively address aspects of complex
  1585.  information in real time for task-
  1586.  based information. Future work
  1587.  includes making object-based elements,
  1588.  local changes, zooming, two and one-
  1589.  half and three-dimensional views, and
  1590.  transitional changes.
  1591.  
  1592. *Configurable Interface Design:  Ways
  1593.  of interacting with these systems
  1594.  graphically require new paradigms
  1595.  beyond the desktop and window
  1596.  metaphors. Integration of expressive
  1597.  tools and graphical intelligence in a
  1598.  multimedia environment will enhance
  1599.  current work in graphical interfaces
  1600.  that can adapt to task specifics and
  1601.  personal preferences.
  1602.  
  1603. *Browsing and Navigation:  Traversing
  1604.  and navigating complex information
  1605.  effectively requires new graphical
  1606.  models which allow the user to
  1607.  maintain context while exploring
  1608.  multiple levels of information
  1609.  simultaneously. The infinite zoom will
  1610.  allow us to do nodal zooming while
  1611.  maintaining graphical context in very
  1612.  large informational databases.
  1613.  
  1614.         73. Large-Scale, High-Resolution
  1615.                       Display Prototypes
  1616.  (Professor Muriel R. Cooper, Ronald
  1617.  MacNeil, and David Small)
  1618.  Our prototype of a 2,000 by 6,000 line
  1619.  display provides us with a testbed for
  1620.  investigating the integration of
  1621.  graphical presentation and
  1622.  intelligence in interactive and
  1623.  dynamic form. Integration of many of
  1624.  our multimedia capabilities is
  1625.  underway. The prototype is connected
  1626.  to the Connection Machine and will
  1627.  soon be connected to a fiber-optic
  1628.  cable which will allow us to explore
  1629.  collaborative and remote communication
  1630.  and the implications of space on
  1631.  information creation and management. A
  1632.  prototype for an 8 x 10 flat panel
  1633.  display is planned.
  1634.  
  1635.          74. Input/Output Considerations
  1636.  (Professor Muriel R. Cooper, Ronald
  1637.  MacNeil, and David Small)
  1638.  Hardcopy output will continue to play
  1639.  a major role in the information
  1640.  medium, and we will need intelligent
  1641.  layout systems to transcode work areas
  1642.  and sessions into appropriate layout
  1643.  on paper. Work has just begun on this
  1644.  aspect of the research.
  1645.  
  1646.         75. Advanced Interactive Mapping
  1647.                                 Displays
  1648.  (Professor Muriel R. Cooper, Dr.
  1649.  Richard A. Bolt, and Ronald MacNeil)
  1650.  This topic represents a three-year
  1651.  project involving:
  1652.  
  1653. *Development of graphically intelligent
  1654.  tools and principles to support the
  1655.  interactive creation of symbolic
  1656.  information landscapes.
  1657.  
  1658. *Integration of such landscapes with
  1659.  pictorially convincing virtual
  1660.  environments.
  1661.  
  1662. *Enabling of multimodal natural
  1663.  language communication with the
  1664.  virtual environment display and its
  1665.  contents via combinations of speech,
  1666.  manual gesture, and gaze.
  1667.  
  1668.  These three streams of investigation
  1669.  are to converge in year three of the
  1670.  overall project in the context of an
  1671.  ultra-high-definition, seamlessly
  1672.  tiled wall-sized display (DataWall).
  1673.  
  1674.         76. Experiments in Elastic Media
  1675.  (Professor Glorianna Davenport)
  1676.  We define "Elastic Media" to be a user-
  1677.  directed form of media storytelling in
  1678.  which the computer mediates between
  1679.  the user and chunks of content.
  1680.  Content prototypes are developed to
  1681.  demonstrate relationships between
  1682.  content, form, modes of interaction,
  1683.  and computational substructures.
  1684.  Issues include research and production
  1685.  of content segments and meaningful
  1686.  machine-based orchestration of these
  1687.  segments, based on user input. Current
  1688.  projects include:
  1689.  
  1690. *Elastic Boston 2:  A new content-based
  1691.  project which focuses on the
  1692.  intersection of a documentary style
  1693.  guide to an urban venue and a shared
  1694.  communication network. The project
  1695.  will focus on downtown Boston, an area
  1696.  from the Causeway to South Station,
  1697.  including Faneuil Hall and the North
  1698.  End. The system will offer
  1699.  personalized local news, in-depth
  1700.  reporting, community portraits, and
  1701.  advertising. The application will
  1702.  invite localized, shared exchanges
  1703.  concerning their impressions,
  1704.  memories, and activities between
  1705.  community members.
  1706.  
  1707. *Movie-Maze:  A virtual world has been
  1708.  created for browsing movie trailers.
  1709.  The world can be thought of as a 3-D
  1710.  graphical mud in which users can
  1711.  communicate with each other while they
  1712.  are exploring the world and the movies
  1713.  it contains.
  1714.  
  1715. *New Orleans Interactive (HyperCard
  1716.  implementation):  This project
  1717.  explores structural issues related to
  1718.  the design of complex documentary
  1719.  narratives for education.
  1720.  
  1721. *Video Postcards:  These are a semi-
  1722.  structured form of personal
  1723.  communication.  Electronic postcard
  1724.  formats should support inclusion of
  1725.  low bandwidth movies suitable for tele-
  1726.  network transmission.
  1727.  
  1728. *Wheel of Life:  This project
  1729.  represents multimedia which has
  1730.  escaped the bounds of the box; this
  1731.  project raises interesting issues
  1732.  about interactive spaces and
  1733.  collaborative discovery. This research
  1734.  is particularly relevant for museum
  1735.  exhibit design, theme parks, and
  1736.  electronic performance spaces.
  1737.  
  1738.       '77. Video Editing:  Computational
  1739.                            Partnerships'
  1740.  (Professor Glorianna Davenport)
  1741.  Movie editing is extremely time-
  1742.  consuming, so time-consuming, in fact,
  1743.  that few home movies are ever edited.
  1744.  The connection between video as
  1745.  information and video as story will
  1746.  become increasingly critical as
  1747.  digital transmission of video from
  1748.  remote visual databases becomes
  1749.  viable. The goal of this work is to
  1750.  integrate the moviemaker's knowledge
  1751.  of content and craft into software in
  1752.  order to model more robust human-
  1753.  machine partnerships for video
  1754.  storytelling. Systems include logging,
  1755.  sequencing, and editing modules.
  1756.  
  1757. *Stratification:  This research in
  1758.  video description incorporates our
  1759.  understanding of how the camera
  1760.  mediates the environment while
  1761.  recording content. The logging
  1762.  environment is stream-based. The
  1763.  browsing interface emphasizes
  1764.  scalability of description hierarchy
  1765.  and a graphical continuum. Both the
  1766.  annotation and sequencing tools are
  1767.  linked to Framer to allow maximum
  1768.  interchange between machine-based
  1769.  annotation algorithms, human
  1770.  annotation, and storytelling
  1771.  structures. The interface will be
  1772.  expanded to include the creation and
  1773.  use of low-level and high-level
  1774.  relationships found within the
  1775.  content.
  1776.  
  1777. *Log Boy and Filter Girl:  This work
  1778.  focuses on programmatic storytelling.
  1779.  The system encourages the filmmaker to
  1780.  think about the multiple playouts of a
  1781.  story during script development. After
  1782.  describing the story purpose and
  1783.  defining the character set, the
  1784.  filmmaker defines axes of interaction
  1785.  which will be allowed in the story
  1786.  playout. These axes serve as an
  1787.  organizing metaphor for script
  1788.  expansion. The logging is defined as a
  1789.  function of filtering and vice versa.
  1790.  The logging process is dynamic,
  1791.  graphical, and attribute-oriented. A
  1792.  series of predefined filters can be
  1793.  expanded by the user, based on
  1794.  particular needs. Filters reflect axes
  1795.  of interaction. Several filters are
  1796.  generally cascaded to offer maximum
  1797.  flexibility in shot selection.
  1798.  
  1799. *Video Streamer and Collage:  This is a
  1800.  two and one-half and dimensional
  1801.  paradigm for browsing which includes
  1802.  object-like graphical selection of
  1803.  video from any source. The interface
  1804.  focuses on multiple views of the video
  1805.  and audio stream, including the edge
  1806.  of the frame, the frame in relation to
  1807.  other frames, and audio associated
  1808.  with a given frame. The stream is
  1809.  parsed algorithmically for shot
  1810.  boundaries. Movie clips can be
  1811.  selected and manipulated in a collage
  1812.  space.
  1813.  
  1814.   78. Stories with a Sense of Themselves
  1815.  (Professor Glorianna Davenport)
  1816.  Current research into multithreaded
  1817.  stories and storytelling tools beg the
  1818.  issue of the author with a deep sense
  1819.  of commitment to the story which is
  1820.  being told. This project seeks to
  1821.  explore the relationship between
  1822.  personalization of the story for the
  1823.  viewer and tools which specify the
  1824.  author's concepts and constructs.
  1825.  
  1826. *Digitally Orchestrated Micromovies:
  1827.  For many applications, story filters
  1828.  designed by the author will allow a
  1829.  viewer to drive through a database of
  1830.  micromovies. The filters can include
  1831.  simple content relationships and
  1832.  stylistic features. The method is
  1833.  illustrated with several prototype
  1834.  movies, including "Endless
  1835.  Conversation," "Dial a News Summary,"
  1836.  and "This Ad is for YOU."
  1837.  
  1838. *Multithreaded Narratives:  This
  1839.  project is a theoretical and practical
  1840.  exploration into narrative structures.
  1841.  
  1842. *Semantic News Network:  This project
  1843.  is a look at how information services
  1844.  might be structured to accommodate
  1845.  thoughtful interactions.
  1846.  
  1847.       '79. Directing Digital Video:  New
  1848.                                   Tools'
  1849.  (Professor Glorianna Davenport)
  1850.  As digital video comes into its own,
  1851.  directors will need new tools to
  1852.  preview and construct story elements
  1853.  for multithreaded, interactive
  1854.  scenarios.
  1855.  
  1856. *The Director's Eyeglass:  This project
  1857.  is a portable prototype which will
  1858.  allow a director to preview digital
  1859.  effects in the field.
  1860.  
  1861. *Coding Camera Motion and Field of
  1862.  View:  This project looks at the
  1863.  mechanics for recording and using
  1864.  information about the camera view to
  1865.  link content segments.
  1866.  
  1867. *The Journalist's Conceptual Notepad:
  1868.  This project looks at how the
  1869.  journalist can create a rich, machine-
  1870.  readable conceptual framework during
  1871.  development of story concepts. The
  1872.  project will encourage the
  1873.  preservation of the journalists
  1874.  framework during the reconstruction of
  1875.  a story by personalizing agents.
  1876.  
  1877.                  80. Storyteller Systems
  1878.  (Professor Glorianna Davenport and
  1879.  Professor Kenneth Haase)
  1880.  Storyteller systems are sophisticated
  1881.  programs with deep and detailed
  1882.  knowledge of some particular domain or
  1883.  domains and access to "media
  1884.  resources" - recorded video, sound,
  1885.  and text - regarding the domain. By
  1886.  combining these resources with
  1887.  synthesized graphical and textual
  1888.  representations, a storyteller system
  1889.  produces a story customized to what it
  1890.  knows -and what it learns - of a
  1891.  listener's background, preferences,
  1892.  and interests. These stories emerge
  1893.  dynamically as the system interacts
  1894.  with the user; questions and
  1895.  criticisms yield wholly new sequences
  1896.  of video, sound, and explanation in
  1897.  reply. Such systems transform the
  1898.  character of publication:  rather than
  1899.  producing epistles, one produces
  1900.  emissaries.
  1901.  
  1902.        81. Production, Distribution, and
  1903.   Viewing of Structured Video Narratives
  1904.  (Professor Glorianna Davenport and
  1905.  Professor V. Michael Bove)
  1906.  Research in video coding at the Media
  1907.  Lab increasingly emphasizes structure
  1908.  as a means of leveraging both
  1909.  compression and story. Image
  1910.  understanding, machine vision, and a
  1911.  priori knowledge are used to produce
  1912.  video representations in terms of
  1913.  component parts (actors, backgrounds,
  1914.  moving objects) and to produce content
  1915.  annotations for story construction.
  1916.  This form of coding has implications
  1917.  for production, postproduction,
  1918.  distribution, and viewing. The goal of
  1919.  this project is to script, produce,
  1920.  and work with a story represented as a
  1921.  structured video database in order to
  1922.  examine diverse issues including
  1923.  script annotation and storyboarding,
  1924.  camera design, production techniques,
  1925.  data formatting, and viewing
  1926.  paradigms.
  1927.  
  1928.                   82. Real-Time Modeling
  1929.  (Professor Neil Gershenfeld)
  1930.  As routinely accessible computers
  1931.  begin to approach gigaflop speeds and
  1932.  as data networks approach
  1933.  gigabit/second bandwidths, it becomes
  1934.  possible to interact in real time with
  1935.  meaningful numerical models. We are
  1936.  exploring this promise in the context
  1937.  of musical instruments, both because
  1938.  of its significance for their
  1939.  evolution and because they provide an
  1940.  extremely demanding environment that
  1941.  requires the integration of multiple
  1942.  degrees of freedom of real-time I/O
  1943.  with state-of-the-art computational
  1944.  processing. We will be doing
  1945.  experiments to characterize the
  1946.  physics of successful traditional
  1947.  instrument designs, using these
  1948.  experiments to guide the creation of
  1949.  numerical representations (based on
  1950.  both first-principles physical models
  1951.  and on nonlinear time-series
  1952.  analysis), and developing new
  1953.  approaches to interface a player to
  1954.  these models. The initial goal is to
  1955.  capture the instrument's performance
  1956.  from the perspective of the player
  1957.  (i.e., pass a musical Turing test),
  1958.  and the longer term goal is to move
  1959.  beyond these traditional designs while
  1960.  still maintaining their mature
  1961.  richness and subtlety. It is
  1962.  anticipated that the tools that are
  1963.  developed for this will be applicable
  1964.  to more general human-machine
  1965.  interaction problems.
  1966.  
  1967.    83. Interface Sensors and Transducers
  1968.  (Professor Neil Gershenfeld)
  1969.  Technological interfaces must sense
  1970.  user activity on a wide range of
  1971.  length scales, ranging from less than
  1972.  a millimeter (stylus input), through
  1973.  centimeters (gesture sensing) and
  1974.  meters (local tracking), to kilometers
  1975.  (navigation). Increasingly, these
  1976.  measurements must be done in three
  1977.  dimensions, must produce images as
  1978.  well as measurements, and must
  1979.  maintain the required spatial and
  1980.  temporal resolution without
  1981.  significantly encumbering the user.
  1982.  Force must often be measured along
  1983.  with position, and it may be desirable
  1984.  to generate output force (tactile
  1985.  feedback). Unfortunately, the poor
  1986.  state of the available sensing and
  1987.  transduction technology for these
  1988.  problems has been a significant
  1989.  constraint on the development of many
  1990.  new applications. We are using a range
  1991.  of experimental techniques to develop
  1992.  the instrumentation for the
  1993.  environment around information
  1994.  processing systems. This includes
  1995.  designing and applying new materials,
  1996.  the use of lensless imaging, and the
  1997.  active remote interrogation of passive
  1998.  sensors.
  1999.  
  2000.        84. Information, Computation, and
  2001.                                  Physics
  2002.  (Professor Neil Gershenfeld)
  2003.  Information, as logical content,
  2004.  necessarily has a physical reality.
  2005.  Although these two levels of
  2006.  description are usually entirely
  2007.  distinct (the designer of a
  2008.  conventional memory circuit does not
  2009.  need to know what messages it will
  2010.  store), there are exciting
  2011.  possibilities and increasingly serious
  2012.  constraints associated with their
  2013.  interface in devices that store,
  2014.  transmit, and manipulate information.
  2015.  We are exploring this area in both
  2016.  directions:  using physical insights
  2017.  to help solve engineering problems
  2018.  (such as the use of dissipative
  2019.  dynamic systems to satisfy
  2020.  communication channel constraints) and
  2021.  using engineering insights to help
  2022.  understand physical systems (such as
  2023.  applying ideas from information theory
  2024.  to help understand complex physical
  2025.  systems). A central theme is the
  2026.  relationship between logical and
  2027.  physical entropy; here we are studying
  2028.  the use of active devices to bypass
  2029.  conventional thermodynamic limits in
  2030.  logic.
  2031.  
  2032.                   85. Incremental Coding
  2033.  (Andrew B. Lippman)
  2034.  High-quality compression is inherently
  2035.  asymmetric - robust source processing
  2036.  directly yields more efficient image
  2037.  representations. Expecting that the
  2038.  original material may be available
  2039.  only once, this research is directed
  2040.  at creating a compressed, intermediate
  2041.  format that can be translated into
  2042.  consumer distribution formats for any
  2043.  rate from 1.5 megabits/second to
  2044.  studio quality, using hardware no more
  2045.  complex than a home decoder. A
  2046.  corollary is real-time encoding that
  2047.  is later asymmetrically processed (in
  2048.  the background) to reduce the
  2049.  immediately available digital
  2050.  workprint to a distribution format.
  2051.  
  2052.                    86. Movies via Modems
  2053.  (Andrew B. Lippman)
  2054.  Ultralow bandwidth coding divides a
  2055.  scene into background and dynamic
  2056.  elements (objects) that can composite
  2057.  any individual frame. An example is
  2058.  telephonic movies where a library of
  2059.  essential scene elements is
  2060.  distributed in advance, but the cues
  2061.  needed to assemble them into a movie
  2062.  is sent at viewing time over normal
  2063.  telephone lines. Alternatively, one
  2064.  could store more than one episode of a
  2065.  series on a single compact disc. This
  2066.  "book of the month" movie system
  2067.  allows periodic distribution of the
  2068.  core parts of many movies on one
  2069.  compact disc (or by downloading),
  2070.  combined with real-time telephone
  2071.  delivery of assembly rules.
  2072.  
  2073.                     87. Objective Coding
  2074.  (Andrew B. Lippman)
  2075.  Objective Coding generalizes early
  2076.  work on Scene Widening (1992) to
  2077.  analyze a picture sequence into
  2078.  components separated by their
  2079.  activity. The goal is similar to book-
  2080.  of-the-month movies, but the
  2081.  concentration is on scene analysis.
  2082.  Objective coding uses panoramic
  2083.  storage and compositing to construct
  2084.  each frame of a sequence by warping
  2085.  and shifting elements stored in
  2086.  memory. In the current work, the basic
  2087.  architectural elements of an MPEG
  2088.  decoder is reconfigured so that its
  2089.  internal memory contains enlarged
  2090.  background and foreground objects
  2091.  instead of adjacent frames.
  2092.  
  2093.                   88. Dimensionalization
  2094.  (Andrew Lippman and Henry Holtzman)
  2095.  Images from multiple still and cinema
  2096.  cameras aimed at the same event are
  2097.  merged into a four-dimensional (x, y,
  2098.  z, t) visual database of the scene to
  2099.  allow multiple perspectives,
  2100.  relighting, and new picture content.
  2101.  Ultimately, this approach might allow
  2102.  the viewer to roam through the set,
  2103.  taking the position of the camera
  2104.  operators or anyplace in between.
  2105.  Initial work addressed static scene
  2106.  elements ("Lucy's Kitchen"); current
  2107.  work extends this to include moving
  2108.  elements, live actors, and the mixture
  2109.  of still photographs with movie
  2110.  footage.
  2111.  
  2112.                 89. Casual Collaboration
  2113.  (Andrew Lippman and Judith Donath)
  2114.  Video images are used to create a
  2115.  visual and interactive representation
  2116.  of an on-line collaborative community.
  2117.  A database format is developed which
  2118.  permits the modification and reuse of
  2119.  the basic images to represent changing
  2120.  events in the visualized community.
  2121.  The research investigates perceptual
  2122.  issues in synthesizing a coherent
  2123.  scene from disparate parts, social
  2124.  issues in the visual depiction of a
  2125.  community, and technical issues in the
  2126.  integration of live and processed
  2127.  video.
  2128.  
  2129.               90. Structure out of Sound
  2130.  (Andrew Lippman, Professor Marvin
  2131.  Minsky, and Michael Hawley)
  2132.  In an information-rich environment
  2133.  where data, images, and sound are
  2134.  readily accessible and digitally
  2135.  communicated, the issue of content-
  2136.  based search becomes a necessity.
  2137.  Structure out of Sound is the first
  2138.  attempt at a unified analysis tool for
  2139.  speech, music, and sound effects.
  2140.  Movies are analyzed into sonic
  2141.  primitives that allow one to divide a
  2142.  movie into dialogue and action or to
  2143.  identify the presence of a single
  2144.  actor. The initial work, a doctoral
  2145.  thesis, lays out the groundwork for
  2146.  later addition of visual browsing and
  2147.  correlating elements.
  2148.  
  2149.                     91. Hyperinstruments
  2150.  (Professor Tod Machover)
  2151.  Hyperinstruments is a project which
  2152.  attempts to define and produce what we
  2153.  consider to be the models for musical
  2154.  instruments of the future. These
  2155.  prototypes combine new definitions of
  2156.  musical virtuosity with intelligent
  2157.  machine understanding and music
  2158.  structure generation. Efforts
  2159.  continued during the past year to turn
  2160.  our "HyperLISP" environment into a
  2161.  general research tool, one which is
  2162.  currently employed by various
  2163.  researchers at the Media Lab and at
  2164.  various other centers and
  2165.  institutions. Work on the automated
  2166.  music generation and analysis system
  2167.  Cypher was completed, and is the
  2168.  subject of a book to be published soon
  2169.  by the MIT Press. Various music
  2170.  cognition studies into phenomenon such
  2171.  as beat and phrase tracking have
  2172.  yielded intelligent algorithms which
  2173.  are being incorporated into our
  2174.  systems. Research is continuing on
  2175.  turning physical gesture (notably a
  2176.  conductor's left-hand articulations)
  2177.  into real-time control signals, using
  2178.  specifically designed hand-tracking
  2179.  technology. Special emphasis has been
  2180.  placed on the physical and sonic
  2181.  detection of existing acoustic musical
  2182.  instruments, most notably stringed
  2183.  instruments, including joint-angle
  2184.  movement sensing, finger-position
  2185.  sensing, bow-position sensing, and
  2186.  special digital signal processing
  2187.  techniques for pitch, timbre, and
  2188.  phrase analysis, including some using
  2189.  synchronized dot patterns. Several new
  2190.  musical compositions, including one
  2191.  for the cellist Yo-Yo Ma, have been
  2192.  produced and performed using our
  2193.  hyperinstrument techniques.
  2194.  
  2195.